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摘要 受 大 量 射频 干扰 信号 影响 , 快速 从 海量 观测 数据 中 准确 识别 出 单 脉冲 信号 已 成 为 天 文 数据 处 理 的 一 项 重 
要 任务 , 而 设计 和 提取 有 效 数据 特征 , 是 利用 机 器 学 习 进行 单 脉冲 信号 高 效 识 别 的 决定 因素 . 针对 如 何 选择 最 优 
特征 , 进而 提升 单 脉冲 信号 的 分 类 精度 这 一 关键 问题 , 设计 了 面向 单 脉冲 信号 分 类 的 集成 特征 选择 方法 . 方法 首 
先 混合 单 脉冲 信号 的 参数 特征 、 统 计 特 征 和 抽象 特征 , 然后 分 别 利 用 5 种 单一 特征 选择 方法 选 出 各 自 的 最 优 特征 
集 , 最 后 利用 贪心 策略 对 5 种 单一 方法 获取 的 最 优 特征 集 进 行 集成 筛选, 获取 最 优 集成 特征 集 . 实验 表明 , 最 优 特 
征集 合 既 包含 统计 特征 也 包含 抽象 特征 . 在 相同 特征 数量 下 , 利用 集成 特征 选择 比 单一 特征 选择 能 获得 更 高 的 
模型 精度 ,可 使 F1 值 最 高 提升 1.8%. 在 海量 数据 背景 下 , 集成 特征 选择 对 减少 特征 数量 、 提 升 分 类 性 能 和 加 快 
数据 处 理 速度 具有 重要 作用 . 
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1 引言 不 但 能 够 去 除 宛 余 特征 , 在 一 定 程度 上 降低 了 数据 
单 脉 冲 信 号 是 指 由 cs H 天 体 发 出 的 没有 固定 处 里 的 计算 量 ， 而 且 能 够 提升 识别 准确 度 . 这 在 高 
周期 的 脉冲 辐射 信号 ， 主 要 分 为 自转 型 暂 现 射电 巡 大 规模 巡天 育 景 下 , 有 助 于 提升 年 脉冲 信号 搜索 


源 (Rotating Radio Transients，RRATs) 和 快速 射 的 效率 . 


KV 电 暴 (Fast Radio Bursts, FRBs)P 20-3], 随 着 科 根据 特征 的 来 源 和 计算 方式 , 脉冲 信号 的 特征 
m 技 的 不 断 发 展 和 天 文 观测 设备 灵敏 度 的 不 断 提升 ， 主要 分 为 3 类 , 分 别 是 参数 特征 、 统 计 特征 和 抽象 
ET 观测 接收 的 脉冲 信号 中 夹杂 着 越 来 越 多 的 于 扰 信 ”特征 . 参数 特征 是 指 在 接收 脉冲 信号 时 由 信和 号 接收 
一 B 受 飞 机 、 雷 达 、 电 离 层 等 影响 的 干扰 信号 呈 指 “ 器、 空间 环境 和 数据 处 理 管线 等 决定 的 一 些 特征 ， 


数 增长 , 如 何 从 海量 观测 数据 中 准确 识别 出 属于 天 ”例如 , 色散 (Dispersion Measure，DM) 是 宇宙 天 体 
体 的 单 脉 冲 信 号 已 成 为 天 文 数据 处 理 的 一 项 重要 和 地 球 之 间 沿 信和 号 传播 方向 上 的 自由 电子 积分 柱 
任务 . 为 此 , 国内 外 学 者 进行 了 大 量 的 研究 工作 . H 密度 , 单位 为 pc. cm, 它 由 空间 环境 决定 , 但 是 对 
BU, 基于 机 器 学 习 的 方法 已 经 成 为 单 脉冲 信号 挖掘 脉冲 信号 的 分 类 识别 有 重要 影响 , 是 典型 的 参数 特 
的 主要 方法 , 而 如 何 设计 和 提取 脉冲 信号 特征 是 影 征 . 同样 , 信 噪 比 (S/N) 是 射电 天 文 望远镜 接收 到 信 
响 机 器 学 习性 能 的 关键 因素 向 . 通过 筛选 有 效 特 征 ， 号 的 电压 与 同时 记录 的 噪声 电压 的 比值 . 信 噪 比 越 
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高 , 即 信号 强度 相对 噪声 更 大 , 信 噪 比 也 是 识别 肪 
冲 信号 的 主要 依据 . 参数 特征 通常 是 在 接收 天 体 信 
号 并 做 初步 处 理 的 时 候 直接 记录 在 数据 文档 中 , 后 
续 可 以 直接 读 取 或 者 通过 简单 计算 获得 ， ee i 


特征 获取 简单 、 含 义 明确 , 对 脉冲 信号 分 类 效果 影 
TI] BH S. 
统计 特征 是 指 通过 对 数据 进行 观察 计算 后 , 人 


工 设计 出 的 一 些 具 有 描述 意义 的 量化 特征 . 例如 ， 
Lyon 等 人 基于 脉冲 轮廓 曲线 和 DM-S/N 曲 线 分 别 
计算 了 4 个 无 偏 统计 特征 , 分 别 为 曲线 的 均值 、 标 
准 差 、 超 额 峰 度 dne 这 些 特征 在 单 脉冲 信和 号 分 
类 中 具有 较 好 的 性 能 加 .Tan 等 人 在 Lyon 等 回 无 偏 
统计 特征 的 基础 上 ， 新 增加 了 基于 时 间 - 相位 图 、 频 
率 -相位 图 和 脉冲 轮廓 图 的 相关 统计 特征 , 在 分 类 
时 , 极 大 地 降低 了 假 阳 率 这 一 评价 指标 日. 统计 特 
征 的 特点 是 含义 明确 , 但 是 其 设计 受 经 邓 验 影响 大 ， 
并 且 容 易 遗 漏 掉 重要 的 统计 特征 . 
1 象 特征 是 指 那 些 不 需要 人 工 设计 ， 直 接 [ 


算法 自动 提取 的 特征 . 目前 , 基于 卷 积 神经 网 络 的 
卷 积 运算 是 最 常用 的 抽象 特征 提取 方法 . 它 利 用 
不 同 的 卷 积 核 , 经 过 多 层 卷 积 运算 , 最 终 输 出 一 系 
列 特征 , 这 些 特征 没有 明确 含义 , 但 对 模型 分 类 具 
良好 的 效果 , 正成 为 各 领域 应 用 的 主流 , 在 单 脉 
冲 信号 识别 方面 也 发 挥 着 越 来 越 重 要 的 作用 . 例 
w, Zhu 等 人 设计 了 一 个 基于 图 像 的 脉冲 星 分 类 系 
统 PICS (Pulsar Image based Classification Sys- 
tem)， 该 系统 通过 PRESTO (PulsaR Exploration 
and Search Toolkit) 软 件 输 出 的 4 幅 子 图 进行 脉冲 
星 信号 的 第 选 , 并 使 用 卷 积 神经 网 络 从 脉冲 星 候选 
体 中 自动 学 习 脉 冲 星 的 特征 , 再 利用 支持 向 量 机 、 
人 工 神经 网 络 (Artificial Neural m ANN), 
逻辑 回归 等 分 类 算法 进行 脉 号 的 分 类 上 

Wang 等 人 根据 PICS (the pulsar ss clas- 

sification system) 系 统 提出 了 PICS-ResNet (Resid- 

ual Networks) 模 型 ， 主 要 思路 是 使 用 ResNet 替 换 
了 原来 的 CNN (Convolutional Neural Networks)， 
通过 在 FAST (the Five-hundred-meter Aperture 
Spherical radio Telescope) 与 GBNCC (Green Bank 
North Celestial Cap) 等 观测 数据 上 进行 实验 ， 获 
得 了 更 高 的 分 类 性 能 名，2020 年 ，Agarwal 等 人 
基于 8 种 深度 网 络 模型 ， 如 VGG (Visual Geome- 


1 星 
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try Group) 和 Densenet (Dense Convolutional Net- 
work) 等 网 络 结构 提取 的 特征 , 组 建 了 11 个 深度 学 
习 模 型 ,已 探测 到 了 超过 20 颗 脉冲 星 的 2000 多 个 单 
脉冲 信号 29. 

应 用 表明 , 基于 卷 积 神经 网 络 的 抽象 特征 ,可 
以 有 效 进 行 脉冲 信号 的 分 类 识别 , 但 是 其 可 解释 性 
25, 含义 不 明确 . 另外 , 利用 卷 积 神经 网 络 提取 的 特 
征 , 经 常 包含 见 余 特征 , 不 但 消耗 计算 资源 , 而 且 在 
一 定 程度 上 影响 分 类 结果 的 准确 性 . 因此 , 如 何 充 
分 利用 参数 特征 、 统 计 特 征 和 抽象 特征 各 自 的 优 
势 , 对 单 脉 冲 信号 的 分 类 具有 重要 意义 . 本 文 的 目 
标 是 设计 一 种 集成 多 元 特征 的 选择 和 评价 方法 , 为 
基于 机 器 学 习 的 单 脉 冲 信 和 号 分 类 提供 特征 选择 的 
方法 和 依据 . 


2 ”数据 来 源 

在 本 文中 ,直接 使 用 Michilli 等 6 工作 中 已 标 
注 的 单 脉冲 数据 集 进行 实验 分 析 . 该 数据 集 来 源 于 
低频 射电 联合 阵列 巡天 (LOFAR tied-array all-sky 
survey, LOTAAS) 项 目 , 具体 形成 过 程 可 见 参 考 文 
献 [11-12]. 该 数据 集 包 含 脉 冲 信 号 记录 374 万 条 , TH 
属于 53066 个 脉冲 事件 , 其 中 35063 个 为 射频 干扰 事 
fF, 18003 个 属于 47 个 已 知 脉冲 星 的 脉冲 事件 . Je 
同一 个 脉冲 的 信号 事件 组 成 一 个 弥散 脉冲 组 . 


3 ”集成 特征 选择 方法 设计 


集成 特征 选择 的 基本 思路 是 从 参数 特征 、 统 
计 特 征 和 抽象 特征 构成 的 特征 集合 中 选择 最 适合 
单 脉 冲 信 号 分 类 的 最 优 特征 组 合 . 其 总 体 技术 流程 
如 图 1 所 示 , 主要 分 为 3 步 : 第 1 步 是 分 别 计 算 参 数 特 
征 、 统 计 特 征 和 抽象 特征 , 形成 多 元 原始 特征 集合 ; 
第 2 步 是 利用 单一 特征 选择 方法 分 别 从 混合 特征 集 
中 提取 最 优 特征 子 集 ; 第 3 步 是 利用 贪心 策略 从 多 
个 最 优 特征 子 集中 筛选 最 优 集 成 特征 子 集 . 


3.1 ”多 元 混合 特征 集 的 构建 
3.1.1 参数 特征 和 统计 特征 设计 

根据 脉冲 信号 数据 的 特 
FL REE RIT, ASIC DY 
计 特 征 如 表 1 所 示 . 


点 ， 结合 已 有 而 


j 的 参数 特征 及 统 
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Ensemble Feature 
Selection 


Algorithms 


Feature Selection with Different Methods Ensemble Feature Selection 


图 1 集成 特征 选择 总 体 流程 


Fig.1 Overall framework of ensemble feature selection 


表 1 参数 特征 及 统计 特征 


Table 1 Parameter features and statistical features 


No. Features Meaning 
i DM Dispersion measure, the integrated column density of free electrons between an ob- 
server and a pulsar in unit of pc: cm ?. 
sj S/N The ratio of signal to noise, that is, the ratio of the voltage value of the signal received 
by the radio telescope to the noise voltage recorded at the same time. 
The window width of the boxcar function used for peak detection of time series 
3 Duration . . . . 
signals, that is, the time range of the window. 
4 DM.Extent The DM value extent corresponding to all signal events in a dispersed pulse group. 
5 Timelndex The index designed according to the generation time of the pulse signal. 
6 Time Extent The value extent of time corresponding to all signal events in a dispersed pulse group. 
7 N_Events Number of signal events contained in a dispersed pulse group 
Average value of DM for all signal events within the same dispersed pulse group, 
8 aDM calculated by aDM = Ze DMe where DM. is the dispersion measure corresponding 
to the signal event (e). 
Weighted average value of DM for all signal events within the same dispersed pulse 
9 wDM X. (DM,S/N,) 
group, calculated by wDM — pv 
10 aTime Average time of all signals forming a dispersed pulse group. 
. REE _ X (DMe- DM) We 
Excess kurtosis of S/N distribution curve, calculated by ks/n o^ (S/Nc)3,, S/Ne 
. 3, where W. is duration, and S/N. is S/N corresponding to the signal event (e) 
11 KurtSigma 
respectively. ø is the standard deviation of the S/N of all events in a dispersed pulse 
group; DM is the mean value of DM. 
12 Time Signal reception time of the strongest event in a dispersed pulse group. 
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3.1.2 ”基于 卷 积 神经 网 络 的 抽象 特征 提取 型 的 输入 , 依 此 提取 单 脉冲 信号 的 抽象 特征 . 

卷 积 神经 网 络 通过 利用 卷 积 、 激 活 、 池 化 等 处 本 文 设 计 的 深度 残 差 收缩 网 络 (Residual 
里 ， 可 以 从 不 同 的 感受 野 进 行 多 层 特征 提取 , 在 图 Shrinkage Distribution curve Feature extraction 


像 分 类 识别 等 领域 取得 了 成 功 的 应 用 . 利用 卷 积 神 。“ Network，RSDFNet) 以 He 等 人 提出 的 深度 残 差 神 


" 


提取 , 将 大 大 增强 单 肪 


经 网 络 对 单 脉冲 信号 的 数据 分 布 图 进行 抽象 特征 经 网 络 为 基础 ba, 在 卷 积 神经 网 络 的 基 而 
kk 冲 信 号 的 特征 来 源 . 本 文 搭 RARR. 其 模型 结构 如 图 2 所 示 ， 以 RSDFNet 最 


信 噪 比 与 窗口 宽度 分 布 


X 
6x224x224 


7 x 7 conv c64s2p3 


6x112x112 


:Down sampling 


3 x 3 maxpool s2p3 1 
3 x 3 conv c256s2pl :256x14x14 
64x56x56 ' 
3 x 3 conv c64slpl 3 x 3 conv c256s1p1 : 


S 


3 x 3 conv c64slpl 
3 x 3 conv c256slpl 


3 5 
3 x 3 conv c64slpl a 
3 x 3 conv có4slpl Global Average Pooling 
= (GAP) 


64x56x56 


256x1xl 


D li : 3 x3 conv c128s2pl 

own sampling » Full Connection 

with step size 2 ， (256, 16) 

Full Connection 


(16, 2) 
3x3 conv c128s1p1 
Abstract feature extraction 
3 x 3 conv cl128slpl Classifier 


128x28x28 


with step size 2 


T 


| 象 特征 . 


上 上 引入 了 


建 深 度 残 差 收缩 网 络 , 并 将 每 个 弥散 脉冲 组 数据 的 ”后 一 层 隐藏 层 作为 特征 提取 层 , 获取 从 信 噪 比 与 窗 
R 1 线形 态 图 像 作为 网 络 模 宽度 分 布 曲线 形态 图 像 中 学 习 的 


图 2 RSDFNet 结 构 示意 图 . 图 中 , X736 x 224x 244 大 小 的 输入 特征 矩阵 ，conv 表 示 执 行 卷 积 操 作 ，c 表 示 通 道 , s 表 示 步 长 , p 表 示 池 化 窗 


c64s2p3 即 表示 对 64 个 通道 数据 执行 步 长 为 2 的 池 化 , 池 化 窗口 为 3x 3. maxpool 表 示 最 大 值 池 化 , GAP 为 全 局 平均 池 化 ， 


运算 , 因 通 道 数 不 同 , 需要 降 采 样 处 理 使 通道 数 一 致 . 


g 


两 条 虚线 表示 的 


残 差 


Fig.2 Structure of RSDFNet. In the figure, X stands for input feature matrix with size of 6 x 224 x 244, conv represents 


convolution operation, c represents channel, s represents step size, and p represents pooling window. For example, c64s2p3 


represents performing pooling with step size 2 on 64 channels data, and pooling window is 3x 3. Maxpool represents maximum 


pooling, GAP represents global average pooling, and dashed lines represent different number of channels during residual 


operation. Down sampling is required to ensure a consistent number of channels. 
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3.2 ”基于 单一 方法 的 特征 子 集 构建 

多 元 混合 特征 集中 不 可 避免 地 存在 着 众多 元 
余 特征 和 无 效 特征 , 这 些 元 余 特征 不 但 会 降低 模型 
的 运算 效率 , 造成 维 数 灾难 , 而 且 会 影响 模型 的 准 
确 性 . 因此 ,如 何 筛选 出 最 有 用 的 特征 ,对 模型 计 
算 有 重要 意义 , 然而 如 何 评价 一 个 特征 对 分 类 任务 
的 重要 性 , 却 有 众多 不 同 的 方法 . 本 文 首先 利用 卡 
方 检验 刚 、 互 信息 上 3、 递归 特征 消除 Ha 、 骨 入 式 
特征 选择 等 方法 进行 单一 方法 特征 选择 , 分 别 筛选 
出 每 种 方法 的 最 优 特征 子 集 . 然后 , 将 多 种 方法 的 
最 优 特征 子 集 进 行 筛选 集成 , 形成 最 优 集成 特征 组 
合 , 以 实现 各 种 特征 选择 方法 的 优势 互补 . 

3.2.1 基于 卡 方 检验 的 特征 子 集 选 择 
卡 方 检验 的 基本 思想 是 通过 观察 实际 值 与 理 
论 值 的 偏差 来 确定 理论 值 正确 与 否 . 具体 做 法 是 先 
假设 丽 个 变 基 是 儿 立 的 (< 原 候 V), 然后 观察 实际 
值 (观察 值 ) 与 理论 值 的 偏差 程度 , 如果 偏 差 足 够 小 
则 认为 两 者 确实 是 相互 独立 的 , 此 时 就 接受 原 假 设 ; 
如 果 偏 差 大 到 一 定 程 度 , 则 认为 两 者 是 相关 的 , 即 
否定 原 假设 而 接受 备 择 假设 . 在 进行 单 脉 冲 信 号 特 
征 选择 的 时 候 , 使 用 “提取 的 特征 与 待 识别 的 单 脉 
冲 信号 不 相关 ”来 做 原 假设 , 计算 出 的 卡 方 值 越 大 ， 
说 明 对 原 假 设 的 偏离 越 大 , 此 时 , 倾向 认为 原 假设 
的 反面 是 正确 的 , 也 就 是 卡 方 值 越 大 , 特征 与 单 脉 
冲 信 号 的 相关 度 越 高 . 卡 方 计算 公式 如 (1) 式 所 示 : 


v= EP . (1) 


其 中 ，4 为 基于 某 项 特征 计算 的 实际 值 ， 五 为 理论 
值 . 
3.2.2 


Er 


基于 互信 息 的 特征 子 集 选 择 
互信 息 (Mutual Information) 可 以 用 来 度量 两 
个 随机 特征 变量 之 间 的 相互 依赖 程度 415, 通常 用 于 
评价 一 个 事件 的 出 现 对 另 一 个 事件 出 现 所 贡献 的 
信息 量 . 在 分 类 中 , 可 看 作 是 某 个 特征 对 于 某 个 类 
别 区 分 的 贡献 度 . 当 变 量 久 与 Y 为 离散 随机 特征 变 


量 时 , 计算 公式 如 下 : 
" p(x, y) 
=D Leen asl © 
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EARP, (X, Y)ERXMY ZAMAN ARE 
p(x,y) 为 全 和 YY 的 联合 概率 分 布 函 数 ，p(7z) 和 p(y) 
SY ANAL BUY FYI AER OP A PRL, RE AN AR I 
久 中 的 一 个 成 员 , y 表 示 变 量 集中 的 一 员 . 若 互 信 
息 值 为 零 , 则 表明 两 个 随机 变量 之 间 互 相 不 提供 任 
何 信息 , 相互 独立 . 互信 息 值 越 大 , 则 表明 这 两 个 变 
量 之 间 的 依赖 程度 越 高 . 
3.23 ”基于 递归 特征 消除 的 特征 子 集 选 择 

递归 特征 消除 法 是 指 在 给 定 的 特征 集 上 训练 
一 个 模型 ,根据 模型 的 结果 从 特征 集中 移 除 最 不 
重要 的 特征 , 接着 在 剩余 特征 集 上 继续 训练 , 不 断 
重复 该 过 程 ， 直 到 集合 中 的 特征 数量 达到 指定 值 ， 
即 可 选 出 最 优 特征 子 集 n9. 在 本 文中 , 选择 Light- 
GBM (Light Gradient Boosting Machine) 模 型 , 进 
行 递 归 特 征 消 除 . LightGBM 是 一 个 基于 决策 树 的 
梯度 提升 框架 , 在 传统 的 GBDT (Gradient-Boost- 
ing Decision Tree) 算 法 上 进行 了 优化 , 支持 多 线程 
的 并 行 计算 , 在 保证 准确 率 的 同时 降低 了 内 存 的 消 
FE, 训练 速度 也 得 到 了 极 大 程度 的 提高 , 从 而 达到 
高 效 处 理 海量 数据 的 目的 Ht9l. 
3.2.4 WARRE 

拒 入 式 特征 选择 是 在 给 定 基 学 习 器 的 情况 下 ， 
将 特征 数据 与 模型 结合 在 一 起 ， 在 模型 的 训练 过 
程 中 筛选 掉 系 数 为 零 的 特征 数据 ， 其 计算 代价 较 
低 , 特征 选择 速度 快 , 能 极 大 程度 上 对 数据 进行 降 
维 . 本 文选 择 随 机 森林 和 XGBoost (Extreme Gra- 
dient Boosting) 学 习 器 , 分 别 作 为 基 模 型 , 进行 特 
征 选 择 L771 引 ,这 两 种 嵌入 式 学 习 器 都 能 较 好 地 对 
特征 间 的 非 线 性 关系 进行 建 模 , 在 特征 选择 的 过 程 
中 , 模型 会 计算 特征 的 相关 性 系数 和 对 模型 性 能 的 
贡献 度 指 标 , 当 相 关 性 系数 或 贡献 度 指标 低 于 设 定 
BEI, 自动 舍弃 该 特征 . 


3.3 ”基于 贪心 策略 的 集成 特征 选择 


单一 方法 的 特征 选择 无 法 全 面 地 对 数据 特征 
进行 评价 , 而 综合 利用 多 种 特征 选择 方法 的 优势 ， 
是 弥补 单一 方法 局 限 的 有 效 途 径 . 为 此 , 本文 提 出 


基于 贪心 策略 的 集成 特征 选择 方法 , 具体 做 法 如 下 : 


64 4 


(1) 使 用 每 个 单一 方法 提取 的 特征 , 按 重 要 性 从 sii = 1,2,3,4,5.. 将 新 选择 的 5 个 特征 继续 放 
大 到 小 排序 . 假设 第 i 个 方法 给 出 的 特征 子 集 为 5; 入 集合 B 中 并 去 重 ,， 然后 从 B 中 逐一 取出 元 素 与 
= {siji = 1,2,3,4,5;7=1,2,3,.… m), sij 即 第 1 轮 已 经 筛选 出 的 最 优 特征 ci 进行 组 合并 输入 
表示 第 i 个 方法 给 出 的 特征 子 集 中 排序 为 ;的 特征 ， 至 LightGBM 分 类 模型 中 , 得 到 对 应 的 分 类 性 能 . 从 


mm 表示 该 特征 子 集 中 特征 总 个 数 , 方法 总 数 为 n; 中 筛选 出 性 能 最 好 的 特征 组 合 , 将 第 2 个 第 选 出 的 
(2) 取 出 各 特征 子 集中 排 在 首位 的 特征 , 放 入 绥 ”特征 记 为 ca, 并 将 其 从 B 中 取出 , 添加 进 集成 特征 

冲 集合 马 中 , 对 BB 包 含 的 特征 进行 去 重 后 逐一 输入 ROP; 

至 LightGBM 分 类 模型 , 得 到 对 应 的 分 类 性 能 , 筛选 以 此 类 推 , 筛选 出 特征 ca, c4, … ,cm, 直到 筛选 


出 分 类 性 能 最 好 的 特征 , 记 为 c1. Hee ABR, 出 特征 子 集中 包含 的 所 有 特征 . 最 后 , 得 到 按 特征 


添加 进 集成 特征 集 C 中 ; 重要 性 排序 的 集成 特征 集 C = {cili = 1,2,3, ---, 
(3) 取 出 各 特征 子 集中 排 在 第 2 位 的 特征 ， 即 m}. 集成 特征 选择 方法 的 算法 流程 如 下 所 示 . 


Algorithm: Ensemble feature selection method 


Input: 


Ordered feature set list S;; Number of single feature selectors n; Number of features m 


Output: Selected feature set C using ensemble feature selection method 


1: Initialize temporary collection B and results feature collection C 
2: fori = 1 ton: 
3: for j = 1 to m: 
4: B + [B;sij] 
5: end for 
6: Remove duplicate features in B 
T: for k = 1 to size (B): 
8: Get out the k* feature bx 
9: if bj is not in C: 
10: Compute classification performance of subsets (c1,..., ci 1, bp} 
11: end for 
12: Record the best performance feature b; based on combination of bẹ and C 
13: C +e [C; bi] 
14: end for 
15: return C 
4 结果 与 讨论 组 , 划分 成 训练 集 、 验 证 集 和 测试 集 , 然后 以 综合 


在 实验 时 , 分 别 将 属于 单 脉冲 的 弥散 脉冲 组 和 了 精确 率 和 召回 率 的 F1 值 为 主要 评价 指标 , 主要 实 
射频 干扰 弥散 脉冲 组 按照 6:2:2 的 比例 进行 随机 分 。” 验 结果 如 下 . 
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4.1 不 同 神经 网 络 模 型 的 分 类 效果 分 析 Fl1 值 达到 了 95.3%, 在 这 些 模型 中 的 整体 性 能 表现 
随 着 卷 积 神经 网 络 的 发 展 , 涌现 了 越 来 越 多 的 最 好 , 证 明了 RSDFNet 具 有 较 好 的 从 信 噪 比 与 窗 


网 络 模型 , 本 文选 取 了 部 分 代表 性 的 网 络 模 型 , 进 口 宽度 的 分 布 曲线 形态 上 学 习 和 提取 特征 的 能 
行 单 脉冲 信号 分 类 效果 对 比 , 从 而 确定 最 优 的 网 络 。 与 ResDFNet 相 比 , RSDFNet 引 入 了 残 差 收缩 模块 
结构 并 进行 抽象 特征 的 提取 . 在 实验 时 首先 对 每 个 后 F1 值 提高 了 0.4%. 分 析 认 为 由 于 弥散 脉冲 组 中 的 


网 络 通过 自动 搜索 方式 单独 进行 参数 调 优 , 获得 最 信号 事件 是 分 别 基 于 信号 事件 表 中 每 条 记录 的 信 
ENR. 各 模型 的 实验 结果 如 表 2 所 示 . 号 时 间 和 色散 值 的 邻近 程度 直接 聚 类 进行 分 组 而 
y EH Me d EMAN Z > ES X 
表 2 不 同 卷 积 神经 网 络 的 分 类 结果 比较 en die eae 
‘Table 2 Classification results for different 就 容 易 存 在 非 相 关 的 噪声 事件 点 特征 . RSDFNetité 
Convolutional Neural Networks 过 注意 力 机 制 从 分 布 曲 线 形态 图 像 上 E fü 到 这 些 
Model Accuracy Precision Recall F1-score 不 合理 的 特征 点 , 通过 软 六 值 处 理 将 其 置 为 零 , 进 
VGG16 0.937 0.955 0.872 0.903 而 加 强 了 模型 在 这 些 分 布 曲线 形态 图 上 提取 特征 
MobileNet ^ 0.940 0.900 0.922 0.911 的 能 
GoogleNet 0.957 0.963 0.915 0.938 4.2 ” 卷 积 神经 网 络 提取 特征 个 数 对 单 脉 冲 信和 号 
ResNet50 0.961 0.959 0.929 0.943 类 结果 的 影响 
ResNet34 0.959 0.911 0.965 0.937 本 文 主要 通过 RSDFNet 模 型 的 最 后 一 层 隐 藏 
ResNetl8 — 0962 — 0957 — 0934 0945 —  — 层 提 取 输入 图 像 包 含 的 抽象 特征 , 该 层 的 节点 数 不 
ResDFNet 0.966 0.932 0.966 0.949 同 , 对 模型 的 分 类 性 能 也 有 一 定 影响 . 为 此 , 通过 调 
RSDFNet 0.968 0.945 0.960 0.953 整 抽 象 特征 数量 , 即 对 RSDFNet 最 后 一 层 隐藏 层 的 
节点 数 进行 调整 , 观察 模型 的 分 类 性 能 以 寻求 更 有 


从 中 可 以 看 出 , 本 文 所 使 用 的 RSDFNet 模 型 ， 质量 的 特征 , 得 到 的 实验 结果 如 图 3 所 示 . 
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图 3 模型 性 能 随 抽象 特征 个 数 的 变化 


Fig.3 Variations of model performance with the number of abstract features 
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模型 的 性 能 
时 , 模型 的 Fl 最高. 此后, 随 着 特征 个 数 的 增加 


图 


中 可 直观 地 看 到 


, 随 着 抽象 特征 个 数 的 增加 ， 


随 之 而 提升 ; 当 抽 象 特 


征 个 数 达 到 16 个 


, 模 


型 性 能 不 再 提升 , 反而 持续 下 降 . 因此 , 本 文 设置 提 
取 的 抽象 特征 个 数 为 16. 


差 收缩 网 络 提取 的 抽 


单一 特征 选 
根据 本 文 第 3 
特征 选择 方法 , 对 
筛选 , 不 同 特征 选 
表 3 所 示 . 


4.3 


表 3 不 同方 法 选择 特征 的 重要 性 排序 


Table3 Feature importance ranking for different feature selection methods 


择 与 集成 特征 选择 的 结果 对 比 

部 分 描述 的 单一 特征 选择 和 集成 
单 脉冲 信号 的 所 有 混合 特征 进行 
择 方 法 得 出 的 特征 重要 性 排序 如 


Selection methods 


Feature ranking based on importance from large to small 


Chi-square test 


f15, f2, fl, f14, f13, f7, f12, Duration, f11, f8, f9, f6, aDM, DM, S/N, Timelndex, 
Time_Extent, Time, aTime, DM. Extent, KurtSigma, N_Events, wDM 


Mutual Information 


N.Events, wDM, S/N, aTime, Time, Time Extent, TimeIndex, DM. Extent, Kurt- 
Sigma, aDM, Duration, DM, f8, f12, f11, f14, f9, f2, f13, f15, f6, f1, f7 


Recursive feature 


elimination 


f9, f6, f14, f2, f15, f12, f8, DM, fl, Duration, f11, S/N, aDM, wDM, DM Extent, 
Time_Extent, N Events, KurtSigma, f7, a Time, f13, TimeIndex, Time 


Random forest 


f15, f9, f6, f2, f8, f13, f7, f1, f11, f14, f12, Duration, DM, aDM, Time. Extent, S/N, 
wDM, KurtSigma, DM.Extent, N Events, Time, aTime, TimeIndex 


XGBoost 


f9, f15, f11, f6, f14, f2, f12, f8, Duration, DM, fl, S/N, wDM, DM. Extent, aDM, 
'Time Extent, KurtSigma, f7, N Events, f13, Time, TimeIndex, aTime 


Ensemble feature 


selection 


f9, wDM, S/N, aTime, f8, fl1, TimeIndex, Time, f6, DM Extent, Time Extent, f1, 
f15, f2, f13, f12, f14, f7, N Events, Duration, KurtSigma, aDM, DM 


表 3 中 ， 以 “f+ 数字 


象 特征 , 其 人 


” 


命名 的 特征 是 基于 深度 残 
方式 命名 的 为 参 


数 特征 和 统计 特征 . 从 


算出 的 


表 中 可 以 看 出 , 每 种 方法 计 


F 为 重要 的 特征 . 


抽象 特征 多 是 最 重要 的 特征 , 然后 是 统计 特征 和 
数 特征 . 总 体 上 看 , 单纯 


统计 特征 或 者 只 使 用 深 


特征 重要 性 排序 明显 不 同 . 以 互 
择 的 特征 , 把 统计 特征 和 参数 特征 作为 重要 的 特征 ， 
MES 
特征 人 


六 随机 森林 的 嵌入 式 特 征 选择 方法 则 把 


言 奶 方法 选 


1 象 
从 集成 特征 选择 的 结果 看 ， 


IES 


个 数 对 模型 性 能 的 分 析 . 我 们 以 LightGBM 模 型 为 
例 , 使 用 F1 值 为 模型 评价 指标 , 分别 计算 模型 在 不 


同 输入 特征 个 数 下 的 F1 值 . 选择 LightGBM 
该 模型 相 比 于 XGBoost 等 其 他 模型 
练 速度 和 更 高 的 效率 , AL FA 


SES] 另 一 方面 ， 


El 


是 因为 
具有 更 快 的 训 
大 规模 数据 的 处 
LightGBM 本 质 是 一 种 基于 树 的 


BUS. 模型 本 身 存 在 着 较 多 的 超 参 数 , 这 些 超 参数 


AY Ei, 
ARTI 


向 树 的 结构 、 
等 . 同 


e. 


一 类 特征 , 例如 只 使 用 


度 残 差 收缩 网 络 的 抽象 特 


征 , 都 不 是 最 好 的 特征 集合 . 通过 对 多 元 特征 进行 


集成 选择 是 构建 最 优 特 征集 的 有 效 方法 . 


4.4 ”特征 个 数 对 模型 性 能 的 分 析 
在 上 一 节 中 , 虽然 得 出 了 不 同方 法 下 特征 的 重 


要 性 排序 , 但 是 能 让 分 类 模型 得 到 最 优 结果 的 输入 


Ef 


FE 数量 仍 不 确定 . 因 


此 , 本 节 继 续 讨论 输入 特征 


数 num_leaves 既 


时 , 这 些 超 参数 之 间 还 存在 相互 影响 


FAZ 
H2 


训练 的 速度 以 及 模型 的 拟 合 度 
, 如 : 参 


E 


响 决 策 树 结构 ,又 可 以 


程度 ; max_bin 既 与 效率 相关 , 也 与 准确 率 相关 , 还 


与 拟 合 程 度 相 关 . 


因此 在 应 用 时 尽量 避免 手动 调整 
自动 搜索 的 方式 确定 超 参数 . 本 


参数 , 最 好 是 通过 


文选 出 了 LightGBM 模 型 中 8 个 常用 的 超 参 数 , 使 用 


MERR EIAI XE AAT H 


JE, xsTA 


数 及 其 取 值 搜索 范围 如 表 4 所 示 . 


为 了 分 析 特 生 


比较 


FE 个 数 对 模型 性 能 的 影响 , 3 
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单一 特征 选择 方法 和 集成 特征 选择 方法 的 表现 , 进 
行 相同 特征 个 数 下 的 对 比 实验 分 析 . 按照 表 3 中 的 
特征 重要 性 排序 , 由 小 到 大 , 依 此 构建 不 同 特征 选 
择 方法 的 特征 子 集 , 分 别 输入 LightGBM 模 型 进行 
训练 和 分 类 结果 预测 ， 基 于 分 类 结果 计算 5 种 单 
特征 选择 方法 的 F1 值 , 取 每 个 特征 数量 下 5 种 单一 
方法 特征 子 集 的 最 大 F1 值 和 集成 特征 子 集 的 F1 值 
进行 比较 . 其 值 随 着 特征 个 数 的 变化 如 图 4 所 示 . 


attr 
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分 类 的 集成 


从 图 4 可 以 看 出 ， 随 着 输入 特征 个 数 的 增加 ， 
F1 值 也 迅速 提升 ,大 概 在 输入 8 个 特征 的 时 候 ， 集 
成 特征 方法 的 F1 值 达到 最 大 值 , 在 输入 10 个 特征 的 
时 候 , 单一 特征 方法 的 Fl 值 达到 最 大 值 后 面 随 着 
特征 个 数 的 增加 , F1 值 都 趋 于 平缓 并 略微 下 降 . 这 
说 明 后 续 增加 的 特征 可 能 属于 宛 余 特征 或 者 无 效 
特征 , 由 此 看 出 , 单 脉冲 分 类 时 并 不 是 使 用 的 特征 
个 数 越 多 越 好 . 


表 4 LightGBM 超 参数 及 取 值 搜索 
Table 4 Super parameters and their value ranges for search of Light GBM 


Parameters Value ranges Parameter meaning 
max.depth [3, 10] The max depth for tree model 
num_leaves [7, 1023] Max number of leaves in one tree 
min data in leaf [0.0005,0.05] Minimal number of data in one leaf 
learning_rate [20, 60] Shrinkage rate 
bagging. fraction [0.5, 1.0] Randomly select part of data without resampling 
feature. fraction [0.5, 1.0] Randomly select a subset of features on each iteration 
reg. alpha [0, 200] Also named as Lambda ll which is a floating-point num- 
ber that represents the L1 regularization coefficient. 
reg lambda [0, 200] Also named as Lambda.12 which is a floating-point num- 


ber that represents the L1 regularization coefficient. 
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图 4 单一 特征 选择 与 集成 特征 选择 方法 的 F1 值 随 特征 个 数 的 变化 


Fig.4 Variations of Fl-score with feature numbers for single method feature selection and ensemble feature selection 
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从 单一 特征 选择 和 集成 特征 选择 的 对 比 来 看 ， 说明 依靠 经 验 设 计 的 一 些 统计 特征 是 有 效 的 ， 同 
在 使 用 相同 的 特征 数量 下 , 集成 特征 选择 方法 的 分 ”时 也 说 明 仅 仅 依靠 人 工 特征 不 一 定 能 取得 最 佳 效 
类 结果 都 比 单一 特征 选择 的 表现 要 好 . 集成 特征 子 AR 本 节 进 一 步 分析 神 经 网 络 提取 的 抽象 特征 对 
集 的 F1 值 最 高 达到 了 99.2%, 在 相同 的 特征 数量 下 ， ”不 同 模型 的 性 能 增益 情况 . 我 们 通过 实验 对 比 只 利 
集成 特征 选择 的 F1 值 比 单一 特征 选择 的 F1 值 最 高 。 用 表 1 中 的 人 工 特征 和 结合 RSDFNet 提 取 的 16 个 抽 
可 提升 1.8%, 说 明了 集成 特征 选择 方法 的 有 效 性 . 象 特征 之 后 , 在 SVM (support vector machines)、 
集成 特征 选择 方法 结合 了 多 种 单一 特征 选择 的 结 KNN (K-Nearest Neighbors)、AdaBoost (Adap- 


果 , 更 容易 找到 区 分 能 力 较 强 的 特征 . tive Boosting) 和 LightGBM 等 模型 上 对 单 脉冲 信号 
的 分 类 效果 , 利用 准确 度 和 F1 值 分 析 抽象 特征 对 不 
4.5 ”抽象 特征 对 不 同 模型 的 性 能 增益 分 析 同 模型 的 分 类 效果 性 能 增益 情况 . 这 些 模型 的 参数 


民 据 前 面 的 分 析 ， 可 以 看 出 筛选 出 的 最 优 特 ， 均 通过 自动 搜索 的 方式 取 # 最 优 值 各 模型 实验 结 
征集 包含 3 个 抽象 特征 和 5 个 自 定 义 特征 . 这 一 方面 RRS. 


表 5 抽象 特征 对 不 同 模型 的 性 能 增益 (UDF 表 示 用 户 自 定义 特征 ) 


Table 5 Performance improvement of abstract features on different models (UDF stands for User 


defined features) 


> Accuracy F1-score 

sls Model 
Y UDF UDF + abstract features Changes UDF  UDF-+abstract features Changes 
= SVM 0.954 0.95 —0.4296 — 0.901 0.928 3.00% 
ES KNN 0.848 0.937 10.50% 0.784 0.902 15.05% 
T AdaBoost 0.966 0.969 0.31% 0.95 0.954 0.42% 
-E LightGBM 0.975 0.982 0.72% 0.963 0.974 1.14% 


Ql 通过 表 5 可 以 看 出 ， 增 加 抽象 特征 的 输入 后 ， 消除、 嵌入 式 特 征 选择 等 方法 筛选 出 不 同 侧面 的 
”各 模型 的 准确 率 和 F1 值 大 都 出 现 了 相应 的 提升 ， ”最 优 特征 子 集 , 然后 利用 贪心 策略 从 最 优 特征 合集 
尤其 是 对 KNN 模 型 的 提升 最 大 ，F1 值 最 高 提升 H, 筛选 出 用 于 最 终 分 类 的 特征 组 合 . 

T159. 虽然 KNN 的 准确 率 和 F1 值 提升 最 大 ， 但 根据 对 实验 结果 的 分 析 , 可 以 得 出 , 不 同 的 特 
是 LightGBM 模 型 的 准确 率 和 F1 值 在 增加 抽象 特征 选择 方法 , 其 特征 重要 性 的 排序 明显 不 同 , 特征 
征 之 前 和 之 后 都 是 最 高 的 _ SVM 模 型 的 准确 率 并 ”选择 方法 对 分 类 精度 有 明显 影响 . 当 特 征 数量 较 少 
没有 提升 , 反而 出 现 了 略微 下 降 , 一 方面 可 能 是 因 ”时 , 不 同 特征 选择 方法 对 分 类 结果 的 影响 较 大 . 当 
为 SVM 分 类 界面 通过 少量 特征 就 可 以 构建 , 另 一 方 ”特征 数量 超过 10 个 时 , 不 同 特征 筛选 方法 的 分 类 性 
面 可 能 是 因为 抽象 特征 中 包含 了 一 些 无 效 或 元 余 ”能 开始 趋同 . 与 单一 特征 选择 方法 相 比 , 基于 集成 
特征 . 通过 集成 特征 选择 , 可 以 进一步 筛选 出 最 优 ”特征 的 F1 值 可 提高 1.8%, 说 明 集成 特征 选择 对 单 肪 


a "m 
all 
H ii 


v i 


特征 组 合 . 冲 分 类 精度 有 较 好 的 提升 . 
T 从 集成 特征 的 构成 来 看 , 集成 方法 选择 的 特征 
5 efn 包含 了 神经 网 络 提取 的 抽象 特征 、 参 数 特征 和 统 
机 器 学 习 已 成 为 单 脉 冲 信 号 探测 和 识别 的 主 。 计 特 征 . 这 说 明 单纯 依靠 卷 积 神经 网 络 的 抽象 特征 


要 方法 , 对 脉冲 信号 的 特征 抽取 成 为 影响 机 器 学 习 或 者 单纯 依靠 人 工 设 计 的 统计 特征 , 都 很 难 达到 最 
效果 的 重要 方面 . 为 此 , 本文 在 参数 特征 、 统 计 特 TRIN RR. 对 多 元 特征 进行 混合 应 用 是 提升 单 
征 和 抽象 特征 的 基础 上 , 设计 了 集成 特征 的 选择 方 脉冲 信号 分 类 的 有 效 手段 . 本 文 的 工作 , 给 基于 机 
ik. 该 方法 首先 利用 卡 方 检验 、 互 信息 、 递 归 特 征 ”器 学 习 的 单 脉冲 信号 分 类 一 种 全 新 的 认 知 , 通过 选 
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Ensemble Feature Selection Method for Single Pulse 
Classification 


ZHANG Jin-qu! LING Yu! DU Ping? LI Xiang-ru! LI Hui! 


(1 School of Computer Science, South China Normal University, Guangzhou 510631) 
(2 School of Building Information, Guangdong Construction Vocational Technology Institute, Qingyuan 511500) 


AnssTRACT Affected by a large number of radio frequency interference signals, it has become an important 
task for astronomical data processing to quickly and accurately identify single pulse signals from massive 
observation data. Designing and extracting effective data features is the key issue for efficient identification 
of single pulse signals using machine learning. This paper proposes an ensemble feature selection method for 
single pulse signal classification. The method first mixed three types of features, including the parametric 
features, statistical features and abstract features of single pulse signals, and then used five independent 
feature selection methods to select the corresponding optimal feature set, respectively. At last, the features 
selected by the five independent methods are mixed and the greedy strategy was used to select the optimal 
ensemble feature set. The experimental results show that the ensemble feature set can improve F1-score by 
value of 1.896 at most and can obtain higher accuracy than the features selected by independent methods. 
Under the background of high-speed and large-scale sky survey, the ensemble feature selection method 
plays an important role in reducing the number of features, improving classification performance and 
speeding up data processing. 


Key words pulse signal, radio pulsar, action variable, methods: data analysis 
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